在终生学习中,代理人在整个生命中都在不重复的一生中学习,就像人类一样,在不断变化的环境中。因此,终身学习带来了许多研究问题,例如连续领域的转移,这导致了非平稳的奖励和环境动态。由于其连续的性质,这些非平稳性很难检测和应对。因此,需要探索策略和学习方法,这些方法能够跟踪稳定的领域变化并适应它们。我们提出反应性探索,以跟踪和反应终生增强学习中持续的域转移,并相应地更新策略。为此,我们进行实验以研究不同的勘探策略。我们从经验上表明,政策阶级家族的代表更适合终身学习,因为它们比Q学习更快地适应了分销的变化。因此,政策梯度方法从反应性探索中获利最大,并在终身学习中显示出良好的结果,并进行了持续的领域变化。我们的代码可在以下网址提供:https://github.com/ml-jku/reactive-ecploration。
translated by 谷歌翻译